《Alink权威指南:基于Flink的机器学习实例入门(Java)》【价格 目录 书评 正版】

您所在的位置:网站首页 alink 权威指南 pdf 《Alink权威指南:基于Flink的机器学习实例入门(Java)》【价格 目录 书评 正版】

《Alink权威指南:基于Flink的机器学习实例入门(Java)》【价格 目录 书评 正版】

2024-03-15 13:22| 来源: 网络整理| 查看: 265

Alink权威指南:基于Flink的机器学习实例入门(Java) 版权信息 ISBN:9787121420580 条形码:9787121420580 ; 978-7-121-42058-0 装帧:一般胶版纸 册数:暂无 重量:暂无 所属分类:计算机/网络>程序设计>其他 Alink权威指南:基于Flink的机器学习实例入门(Java) 本书特色

贾扬清作序。Alink创始人力作,用实例引导上手,提供源代码,直接解决问题《Alink权威指南:基于Flink的机器学习实例入门》是Alink创始人杨旭老师的一本心血力作。它不仅集合了作者对Flink与Alink框架的深度观察与分析,还集合了众多学习者在学习中遇到的难点、疑点问题,作者在书中均一一剖析,并给合常见的实例进行详尽的说明,使读者能够毫无障碍地入门解决工作中的问题。 不仅如此,本书还提供了完整的源代码,读者在个人计算机中就能直接尝试、验证书中的方法和算法。书中所介绍的是均是业界正在使用的工具,支持分布式计算处理海量的数据、支持流式数据的场景,同时机器学习流程及模型还可以方便地嵌入用户的应用系统或预测服务中。Alink将众多的机器学习算法以标准组件的方式结合在一起,力图使对机器学习感兴趣的业务工程师可以迅速将这些算法和生产数据集结合在一起,验证效果,进行参数的调优,并*终将这些算法嵌入业务流程当中。 ――贾扬清 阿里巴巴集团副总裁、阿里巴巴开源技术委员会负责人Apache?Flink作为新一代大数据计算引擎,凭借其流批一体以及高效的迭代计算能力,不仅能够利用SQL对海量数据进行实时分析,还能够在机器学习领域进行包括特征工程、模型训练、验证和推理在内的全链路计算。Alink在Apache Flink强大计算能力的基础上,封装了一套实时离线一体化的机器学习算法库,并在阿里巴巴集团内部进行了大量验证。通过学习Alink技术,算法人员可以快速搭建起业界强大的机器学习算法平台。 ――王峰 Apache?Flink中文社区发起人、阿里巴巴开源大数据平台负责人Apache?Flink被大家熟知的往往是其流计算的能力,其实在设计之初Flink还有一个重要的特性――迭代计算。Alink正是利用Apache?Flink迭代计算能力构建的高效机器学习算法库,?把算法和大数据处理无缝结合起来,大大提高了智能算法的研发效率,帮助企业实现了更多业务智能化场景的落地。 ――林伟 阿里巴巴研究员、阿里巴巴机器学习平台PAI负责人

Alink权威指南:基于Flink的机器学习实例入门(Java) 内容简介

全书围绕Alink(阿里在Flink基础上做的开源版本)的展开,以实例为主阐述Alink的使用。 ?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍 ?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍

Alink权威指南:基于Flink的机器学习实例入门(Java) 目录 目  录第1章 Alink快速上手 11.1 Alink是什么 11.2 免费下载、安装 11.3 Alink的功能 21.3.1 丰富的算法库 21.3.2 多样的使用体验 31.3.3 与SparkML的对比 31.4 关于数据和代码 41.5 简单示例 51.5.1 数据的读/写与显示 51.5.2 批式训练和批式预测 71.5.3 流式处理和流式预测 91.5.4 定义Pipeline,简化操作 101.5.5 嵌入预测服务系统 12第2章 系统概况与核心概念 142.1 基本概念 142.2 批式任务与流式任务 152.3 Alink=A+link 182.3.1 BatchOperator和StreamOperator 192.3.2 link方式是批式算法/流式算法的通用使用方式 202.3.3 link的简化 232.3.4 组件的主输出与侧输出 232.4 Pipeline与PipelineModel 242.4.1 概念和定义 242.4.2 深入介绍 252.5 触发Alink任务的执行 282.6 模型信息显示 292.7 文件系统与数据库 342.8 Schema String 36第3章 文件系统与数据文件 383.1 文件系统简介 383.1.1 本地文件系统 393.1.2 Hadoop文件系统 413.1.3 阿里云OSS文件系统 433.2 数据文件的读入与导出 453.2.1 CSV格式 473.2.2 TSV、LibSVM、Text格式 533.2.3 AK格式 56第4章 数据库与数据表 604.1 简介 604.1.1 Catalog的基本操作 604.1.2 Source和Sink组件 614.2 Hive示例 624.3 Derby示例 654.4 MySQL示例 67第5章 支持Flink SQL 705.1 基本操作 705.1.1 注册 705.1.2 运行 715.1.3 内置函数 745.1.4 用户定义函数 745.2 简化操作 755.2.1 单表操作 765.2.2 两表的连接(JOIN)操作 805.2.3 两表的集合操作 825.3 深入介绍Table Environment 865.3.1 注册数据表名 875.3.2 撤销数据表名 885.3.3 扫描已注册的表 89第6章 用户定义函数(UDF/UDTF) 906.1 用户定义标量函数(UDF) 906.1.1 示例数据及问题 916.1.2 UDF的定义 916.1.3 使用UDF处理批式数据 926.1.4 使用UDF处理流式数据 936.2 用户定义表值函数(UDTF) 956.2.1 示例数据及问题 956.2.2 UDTF的定义 966.2.3 使用UDTF处理批式数据 966.2.4 使用UDTF处理流式数据 99第7章 基本数据处理 1017.1 采样 1017.1.1 取“前”N个数据 1027.1.2 随机采样 1027.1.3 加权采样 1047.1.4 分层采样 1057.2 数据划分 1067.3 数值尺度变换 1087.3.1 标准化 1097.3.2 MinMaxScale 1117.3.3 MaxAbsScale 1127.4 向量的尺度变换 1137.4.1 StandardScale、MinMaxScale、MaxAbsScale 1137.4.2 正则化 1157.5 缺失值填充 116第8章 线性二分类模型 1198.1 线性模型的基础知识 1198.1.1 损失函数 1198.1.2 经验风险与结构风险 1218.1.3 线性模型与损失函数 1228.1.4 逻辑回归与线性支持向量机(Linear SVM) 1238.2 二分类评估方法 1258.2.1 基本指标 1268.2.2 综合指标 1288.2.3 评估曲线 1318.3 数据探索 1368.3.1 基本统计 1388.3.2 相关性 1408.4 训练集和测试集 1448.5 逻辑回归模型 1458.6 线性SVM模型 1478.7 模型评估 1498.8 特征的多项式扩展 1538.9 因子分解机 157第9章 朴素贝叶斯模型与决策树模型 1609.1 朴素贝叶斯模型 1609.2 决策树模型 1629.2.1 决策树的分裂指标定义 1659.2.2 常用的决策树算法 1679.2.3 指标计算示例 1699.2.4 分类树与回归树 1729.2.5 经典的决策树示例 1739.3 数据探索 1769.4 使用朴素贝叶斯方法 1799.5 蘑菇分类的决策树 185第10章 特征的转化 19110.1 整体流程 19510.1.1 特征哑元化 19710.1.2 特征的重要性 19810.2 减少模型特征的个数 20010.3 离散特征转化 20210.3.1 独热编码 20210.3.2 特征哈希 204第11章 构造新特征 20711.1 数据探索 20811.2 思路 21011.2.1 用户和品牌的各种特征 21111.2.2 二分类模型训练 21211.3 计算训练集 21311.3.1 原始数据划分 21311.3.2 计算特征 21411.3.3 计算标签 22211.4 正负样本配比 22411.5 决策树 22611.6 集成学习 22711.6.1 Bootstrap aggregating 22811.6.2 Boosting 22911.6.3 随机森林与GBDT 23211.7 使用随机森林算法 23311.8 使用GBDT算法 234第12章 从二分类到多分类 23512.1 多分类模型评估方法 23512.1.1 综合指标 23712.1.2 关于每个标签值的二分类指标 23812.1.3 Micro、Macro、Weighted计算的指标 23912.2 数据探索 24112.3 使用朴素贝叶斯进行多分类 24412.4 二分类器组合 24612.5 Softmax算法 24912.6 多层感知器分类器 253第13章 常用多分类算法 25613.1 数据准备 25613.1.1 读取MNIST数据文件 25713.1.2 稠密向量与稀疏向量 25813.1.3 标签值的统计信息 26113.2 Softmax算法 26213.3 二分类器组合 26413.4 多层感知器分类器 26513.5 决策树与随机森林 26713.6 K*近邻算法 270第14章 在线学习 27314.1 整体流程 27314.2 数据准备 27514.3 特征工程 27714.4 特征工程处理数据 27914.5 在线训练 28014.6 模型过滤 283第15章 回归的由来 28615.1 平均数 28715.2 向平均数方向的回归 28815.3 线性回归 289第16章 常用回归算法 29216.1 回归模型的评估指标 29216.2 数据探索 29416.3 线性回归 29716.4 决策树与随机森林 30016.5 GBDT回归 301第17章 常用聚类算法 30317.1 聚类评估指标 30417.1.1 基本评估指标 30417.1.2 基于标签值的评估指标 30617.2 K-Means聚类 30817.2.1 算法简介 30817.2.2 K-Means实例 30917.3 高斯混合模型 31417.3.1 算法介绍 31417.3.2 GMM实例 31617.4 二分K-Means聚类 31717.5 基于经纬度的聚类 320第18章 批式与流式聚类 32418.1 稠密向量与稀疏向量 32418.2 使用聚类模型预测流式数据 32618.3 流式聚类 329第19章 主成分分析 33119.1 主成分的含义 33319.2 两种计算方式 33719.3 在聚类方面的应用 33919.4 在分类方面的应用 343第20章 超参数搜索 34720.1 示例一:尝试正则系数 34820.2 示例二:搜索GBDT超参数 34920.3 示例三:*佳聚类个数 350第21章 文本分析 35321.1 数据探索 35321.2 分词 35521.2.1 中文分词 35621.2.2 Tokenizer和RegexTokenizer 35921.3 词频统计 36321.4 单词的区分度 36521.5 抽取关键词 36721.5.1 原理简介 36721.5.2 示例 36921.6 文本相似度 37121.6.1 文本成对比较 37221.6.2 *相似的TopN 37521.7 主题模型 38721.7.1 LDA模型 38821.7.2 新闻的主题模型 39021.7.3 主题与原始分类的对比 39221.8 组件使用小结 396第22章 单词向量化 39822.1 单词向量预训练模型 39922.1.1 加载模型 39922.1.2 查找相似的单词 40022.1.3 单词向量 40222.2 单词映射为向量 406第23章 情感分析 41223.1 使用提供的特征 41323.1.1 使用朴素贝叶斯方法 41623.1.2 使用逻辑回归算法 41923.2 如何提取特征 42323.3 构造更多特征 42623.4 模型保存与预测 43023.4.1 批式/流式预测任务 43023.4.2 嵌入式预测 431第24章 构建推荐系统 43324.1 与推荐相关的组件介绍 43424.2 常用推荐算法 43724.2.1 协同过滤 43724.2.2 交替*小二乘法 43824.3 数据探索 43924.4 评分预测 44424.5 根据用户推荐影片 44624.6 计算相似影片 45224.7 根据影片推荐用户 45424.8 计算相似用户 457 展开全部 Alink权威指南:基于Flink的机器学习实例入门(Java) 作者简介

2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》《机器学习在线》等。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3